Back
从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder:它如何把混合 activation 转化为可检验的 feature 假设。
sae
sparse autoencoder
interpretability
llm
mechanistic interpretability